Función que nos permite obtener el ranking utilizando el test no paramétrico de wilcoxon.

RSME

Lectura de la tabla con el RSME en cada fold

Se elimina la columna con los pliegues porque esa información está en el índice

Mostramos un diagrama de cajas para cada uno de los modelos

Primero analizamos si las diferentes muestras (resultados de la validación cruzada por cada modelo) proceden de una distribución normal. Para ello vamos a aplicar el test de Shapiro-Wilks.

Como pdemos ver, exite un pvalue que es menor que el nivel de significancia del 0.05, GBR_lag3 con lo que en ese caso la distribución no sigue una distribución normal. Esto lo podemos ver de forma gráfica.

Como se puede ver no se detectan diferencias signficativas. Si intentamos aplicar el test de Nemenyi tampoco las encuentra.

Para facilitar el cáluclo de la matriz de ranking, vamos a utilizar la función que definimos antes que utiliza el test de Wilcoxon.

MAE

Al igual que antes he hecho el test en R y se rechaza la hipótesis nula de que se cumple la esfericidad

CC

Lectura de la tabla

La distribución para RF_lag5 no es normal. Tampoco para GBR_Lag5

Sin diferencias significativas. Probamos con Nemenyi

Generación tabla Wins-Losses a partir de Nemenyi

Los resultados obtenidos para el test de Wilcoxon no reflejan que existan diferencias significativas entre los modelos. Sin embargo, la matriz resultante de aplicar el test de Nemenyi, si genera p-values inferiores a 0.05, lo que quiere decir que se acepta la hipótesis nula H0 = "Existen diferencias significativas entre los modelos". Aunque para RMSE no se obtengan p-values inferiores a 0.05, para MAE y CC si, por lo que genereraremos la tabla de Wins-Losses a partir de las matrices obtenidas al aplicar el test de Nemenyi en MAE y CC

Esta función genera la tabla de wins and losses según el criterio pasado (CC o MAE)

Guardamos los nombres de los modelos para acceder a sus valores de MAE y CC

Win-Losses CC

Win-Losses MAE

Sumamos las dos tablas para obtener los Wins y Losses totales

Añadimos la columna Diff como la resta de los Wins y Losses de cada modelo

Generamos el ranking en base a la columna Diff